Self Forcing
https://gyazo.com/a53979744a61b47604a9a144885e5fc5
これは、訓練中に推論プロセスをシミュレートし、KVキャッシングを用いてオートリグレッシブなロールアウトを実行することで、訓練時とテスト時の分布の不一致(Exposure Bias)という長年の問題を解決します。
モデルは高品質な480P動画を生成でき、初期レイテンシは約0.8秒で、その後はH100 GPUでは約16 FPS、RTX 4090では最適化により約10 FPSでフレームをストリーミング生成します。 従来のTeacher Forcing (TF)やDiffusion Forcing (DF) は、訓練時にグラウンドトゥルースのコンテキストに依存するため、推論時に自身の不完全な出力に条件付けして生成する際に分布の不一致(Exposure Bias)が生じ、時間の経過とともにエラーが蓄積し、動画品質が低下する問題がありました。 Self Forcingは、訓練中に過去に「自身が生成した」出力に条件付けして次のフレームを生成することで、この分布の不一致を明示的に解消します。
rolling cache
メモリが一杯になったら前方のブロックを消してメモリを空ける
ことにより無限長の動画生成ができる
ちょっと気になる👀morisoba65536.icon
モデル
有志による14b?
ptファイルなので一応注意
Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors
というファイルがそれ。名前がちょっとわかりにくいので選択するとき迷いやすいかも?
4070ti super 16 vram、4 ステップ、lcm、1 cfg、8 シフトを使用して、720x480、97 フレームのビデオを約 100 秒で実行しました。さらに高速化できると思います
微改良版
self_forcing_dmd (1.3B T2Vベース)
https://gyazo.com/aea16f0bf929b21897844996cf634a03
KSampler設定
steps: 4 ~ 6 / cfg: 1.0 / sampler: LCM
4070tiで39.50s(81f)
lightx2v版LoRA使用 (14B)
https://gyazo.com/66931d2d248fa17997c2b7b2d937f2ee
ComfyUIの実装では双方向attentionのままなのでリアルタイム生成はできない
関連